Діаграма Венна , що показує адитивні та різницеві відношення серед різних мір інформації , пов'язаних із корельованими змінними
X
{\displaystyle X}
та
Y
{\displaystyle Y}
. Область, яка міститься в обох колах, є спільною ентропією
H
(
X
,
Y
)
{\displaystyle \mathrm {H} (X,Y)}
. Коло ліворуч (червоний і фіолетовий) є особистою ентропією
H
(
X
)
{\displaystyle \mathrm {H} (X)}
, в якому червоне є умовною ентропією
H
(
X
|
Y
)
{\displaystyle \mathrm {H} (X|Y)}
. Коло праворуч (синій та фіолетовий) є
H
(
Y
)
{\displaystyle \mathrm {H} (Y)}
, а синє в ньому є
H
(
Y
|
X
)
{\displaystyle \mathrm {H} (Y|X)}
. Фіолетове є взаємною інформацією
I
(
X
;
Y
)
{\displaystyle \operatorname {I} (X;Y)}
.
В теорії інформації умо́вна ентропі́я (або ухи́льність , англ. conditional entropy, equivocation ) — це оцінка кількості інформації, необхідної, щоб описати вихід випадкової змінної
Y
{\displaystyle Y}
, враховуючи, що значення іншої випадкової змінної
X
{\displaystyle X}
є відомим. Тут інформація вимірюється в шеннонах , натах або гартлі . Ентропія
Y
{\displaystyle Y}
, обумовлена
X
{\displaystyle X}
записується як
H
(
Y
|
X
)
{\displaystyle \mathrm {H} (Y|X)}
.
Нехай
H
(
Y
|
X
=
x
)
{\displaystyle \mathrm {H} (Y|X=x)}
є ентропією дискретної випадкової змінної
Y
{\displaystyle Y}
, обумовленою набуванням дискретною випадковою змінною
X
{\displaystyle X}
певного значення
x
{\displaystyle x}
. Нехай
Y
{\displaystyle Y}
має функцію маси ймовірності
p
Y
(
y
)
{\displaystyle p_{Y}{(y)}}
. Безумовна ентропія
Y
{\displaystyle Y}
обчислюється як
H
(
Y
)
:=
E
[
I
(
Y
)
]
{\displaystyle \mathrm {H} (Y):=\mathbb {E} [\operatorname {I} (Y)]}
, тобто,
H
(
Y
)
=
∑
i
=
1
n
P
r
(
Y
=
y
i
)
I
(
y
i
)
=
−
∑
i
=
1
n
p
Y
(
y
i
)
log
2
p
Y
(
y
i
)
,
{\displaystyle \mathrm {H} (Y)=\sum _{i=1}^{n}{\mathrm {Pr} (Y=y_{i})\,\mathrm {I} (y_{i})}=-\sum _{i=1}^{n}{p_{Y}(y_{i})\log _{2}{p_{Y}(y_{i})}},}
де
I
(
y
i
)
{\displaystyle \operatorname {I} (y_{i})}
є інформаційним вмістом набування результатом [en]
Y
{\displaystyle Y}
значення
y
i
{\displaystyle y_{i}}
. Ентропію
Y
{\displaystyle Y}
, обумовлену набуванням випадковою змінною
X
{\displaystyle X}
значення
x
{\displaystyle x}
, визначено аналогічно до умовного математичного сподівання :
H
(
Y
|
X
=
x
)
=
E
[
I
(
Y
)
|
X
=
x
]
=
−
∑
i
=
1
n
Pr
(
Y
=
y
i
|
X
=
x
)
log
2
Pr
(
Y
=
y
i
|
X
=
x
)
.
{\displaystyle \mathrm {H} (Y|X=x)=\mathbb {E} [\operatorname {I} (Y)|X=x]=-\sum _{i=1}^{n}{\Pr(Y=y_{i}|X=x)\log _{2}{\Pr(Y=y_{i}|X=x)}}.}
H
(
Y
|
X
)
{\displaystyle \mathrm {H} (Y|X)}
є результатом усереднювання
H
(
Y
|
X
=
x
)
{\displaystyle \mathrm {H} (Y|X=x)}
над усіма можливими значеннями
x
{\displaystyle x}
, що їх може набувати
X
{\displaystyle X}
.
Для заданих дискретних випадкових змінних
X
{\displaystyle X}
з носієм
X
{\displaystyle {\mathcal {X}}}
та
Y
{\displaystyle Y}
з носієм
Y
{\displaystyle {\mathcal {Y}}}
умовну ентропію
Y
{\displaystyle Y}
відносно
X
{\displaystyle X}
визначають як зважену суму
H
(
Y
|
X
=
x
)
{\displaystyle \mathrm {H} (Y|X=x)}
для кожного з можливих значень
x
{\displaystyle x}
із застосуванням
p
(
x
)
{\displaystyle p(x)}
як вагових коефіцієнтів:[ 1] :15
H
(
Y
|
X
)
≡
∑
x
∈
X
p
(
x
)
H
(
Y
|
X
=
x
)
=
−
∑
x
∈
X
p
(
x
)
∑
y
∈
Y
p
(
y
|
x
)
log
p
(
y
|
x
)
=
−
∑
x
∈
X
∑
y
∈
Y
p
(
x
,
y
)
log
p
(
y
|
x
)
=
−
∑
x
∈
X
,
y
∈
Y
p
(
x
,
y
)
log
p
(
y
|
x
)
=
−
∑
x
∈
X
,
y
∈
Y
p
(
x
,
y
)
log
p
(
x
,
y
)
p
(
x
)
.
=
∑
x
∈
X
,
y
∈
Y
p
(
x
,
y
)
log
p
(
x
)
p
(
x
,
y
)
.
{\displaystyle {\begin{aligned}\mathrm {H} (Y|X)\ &\equiv \sum _{x\in {\mathcal {X}}}\,p(x)\,\mathrm {H} (Y|X=x)\\&=-\sum _{x\in {\mathcal {X}}}p(x)\sum _{y\in {\mathcal {Y}}}\,p(y|x)\,\log \,p(y|x)\\&=-\sum _{x\in {\mathcal {X}}}\sum _{y\in {\mathcal {Y}}}\,p(x,y)\,\log \,p(y|x)\\&=-\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log \,p(y|x)\\&=-\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log {\frac {p(x,y)}{p(x)}}.\\&=\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log {\frac {p(x)}{p(x,y)}}.\\\end{aligned}}}
Примітка: Зрозуміло, що вирази
0
log
0
{\displaystyle 0\log 0}
та
0
log
c
/
0
{\displaystyle 0\log c/0}
для фіксованих
c
>
0
{\displaystyle c>0}
слід вважати рівними нулеві.
H
(
Y
|
X
)
=
0
{\displaystyle \mathrm {H} (Y|X)=0}
якщо і лише якщо значення
Y
{\displaystyle Y}
повністю визначається значенням
X
{\displaystyle X}
.
Умовна ентропія незалежних випадкових змінних[ ред. | ред. код ]
І навпаки,
H
(
Y
|
X
)
=
H
(
Y
)
{\displaystyle \mathrm {H} (Y|X)=\mathrm {H} (Y)}
якщо і лише якщо
Y
{\displaystyle Y}
та
X
{\displaystyle X}
є незалежними випадковими змінними .
Припустімо, що об'єднана система, яку визначають дві випадкові змінні
X
{\displaystyle X}
та
Y
{\displaystyle Y}
, має спільну ентропію
H
(
X
,
Y
)
{\displaystyle \mathrm {H} (X,Y)}
, тобто, нам потрібно в середньому
H
(
X
,
Y
)
{\displaystyle \mathrm {H} (X,Y)}
біт інформації, щоби описати її точний стан. Тепер, якщо ми спочатку дізналися значення
X
{\displaystyle X}
, ми отримали
H
(
X
)
{\displaystyle \mathrm {H} (X)}
біт інформації. Щойно
X
{\displaystyle X}
стало відомим, нам потрібно лише
H
(
X
,
Y
)
−
H
(
X
)
{\displaystyle \mathrm {H} (X,Y)-\mathrm {H} (X)}
біт, щоб описати стан системи в цілому. Ця величина в точності дорівнює
H
(
Y
|
X
)
{\displaystyle \mathrm {H} (Y|X)}
, що дає нам ланцюгове правило умовної ентропії:
H
(
Y
|
X
)
=
H
(
X
,
Y
)
−
H
(
X
)
.
{\displaystyle \mathrm {H} (Y|X)\,=\,\mathrm {H} (X,Y)-\mathrm {H} (X).}
[ 1] :17
Ланцюгове правило випливає з вищенаведеного означення умовної ентропії:
H
(
Y
|
X
)
=
∑
x
∈
X
,
y
∈
Y
p
(
x
,
y
)
log
(
p
(
x
)
p
(
x
,
y
)
)
=
−
∑
x
∈
X
,
y
∈
Y
p
(
x
,
y
)
log
(
p
(
x
,
y
)
)
+
∑
x
∈
X
,
y
∈
Y
p
(
x
,
y
)
log
(
p
(
x
)
)
=
H
(
X
,
Y
)
+
∑
x
∈
X
p
(
x
)
log
(
p
(
x
)
)
=
H
(
X
,
Y
)
−
H
(
X
)
.
{\displaystyle {\begin{aligned}\mathrm {H} (Y|X)&=\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log \left({\frac {p(x)}{p(x,y)}}\right)\\[4pt]&=-\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log(p(x,y))+\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}{p(x,y)\log(p(x))}\\[4pt]&=\mathrm {H} (X,Y)+\sum _{x\in {\mathcal {X}}}p(x)\log(p(x))\\[4pt]&=\mathrm {H} (X,Y)-\mathrm {H} (X).\end{aligned}}}
В загальному випадку ланцюгове правило для декількох випадкових змінних стверджує, що
H
(
X
1
,
X
2
,
…
,
X
n
)
=
∑
i
=
1
n
H
(
X
i
|
X
1
,
…
,
X
i
−
1
)
{\displaystyle \mathrm {H} (X_{1},X_{2},\ldots ,X_{n})=\sum _{i=1}^{n}\mathrm {H} (X_{i}|X_{1},\ldots ,X_{i-1})}
[ 1] :22
Воно має вигляд, подібний до ланцюгового правила в теорії ймовірностей, за винятком того, що замість множення використовується додавання.
Правило Баєса для умовної ентропії стверджує, що
H
(
Y
|
X
)
=
H
(
X
|
Y
)
−
H
(
X
)
+
H
(
Y
)
.
{\displaystyle \mathrm {H} (Y|X)\,=\,\mathrm {H} (X|Y)-\mathrm {H} (X)+\mathrm {H} (Y).}
Доведення.
H
(
Y
|
X
)
=
H
(
X
,
Y
)
−
H
(
X
)
{\displaystyle \mathrm {H} (Y|X)=\mathrm {H} (X,Y)-\mathrm {H} (X)}
і
H
(
X
|
Y
)
=
H
(
Y
,
X
)
−
H
(
Y
)
{\displaystyle \mathrm {H} (X|Y)=\mathrm {H} (Y,X)-\mathrm {H} (Y)}
. Через симетрію,
H
(
X
,
Y
)
=
H
(
Y
,
X
)
{\displaystyle \mathrm {H} (X,Y)=\mathrm {H} (Y,X)}
. Віднімання цих двох рівнянь має наслідком правило Баєса.
Якщо
Y
{\displaystyle Y}
є умовно незалежною [en] від
Z
{\displaystyle Z}
за заданої
X
{\displaystyle X}
, то ми маємо
H
(
Y
|
X
,
Z
)
=
H
(
Y
|
X
)
.
{\displaystyle \mathrm {H} (Y|X,Z)\,=\,\mathrm {H} (Y|X).}
Для будь-яких
X
{\displaystyle X}
та
Y
{\displaystyle Y}
H
(
Y
|
X
)
≤
H
(
Y
)
H
(
X
,
Y
)
=
H
(
X
|
Y
)
+
H
(
Y
|
X
)
+
I
(
X
;
Y
)
,
H
(
X
,
Y
)
=
H
(
X
)
+
H
(
Y
)
−
I
(
X
;
Y
)
,
I
(
X
;
Y
)
≤
H
(
X
)
,
{\displaystyle {\begin{aligned}\mathrm {H} (Y|X)&\leq \mathrm {H} (Y)\,\\\mathrm {H} (X,Y)&=\mathrm {H} (X|Y)+\mathrm {H} (Y|X)+\operatorname {I} (X;Y),\qquad \\\mathrm {H} (X,Y)&=\mathrm {H} (X)+\mathrm {H} (Y)-\operatorname {I} (X;Y),\,\\\operatorname {I} (X;Y)&\leq \mathrm {H} (X),\,\end{aligned}}}
де
I
(
X
;
Y
)
{\displaystyle \operatorname {I} (X;Y)}
є взаємною інформацією
X
{\displaystyle X}
та
Y
{\displaystyle Y}
.
Для незалежних
X
{\displaystyle X}
та
Y
{\displaystyle Y}
H
(
Y
|
X
)
=
H
(
Y
)
{\displaystyle \mathrm {H} (Y|X)=\mathrm {H} (Y)}
та
H
(
X
|
Y
)
=
H
(
X
)
{\displaystyle \mathrm {H} (X|Y)=\mathrm {H} (X)\,}
Хоча конкретно-умовна ентропія
H
(
X
|
Y
=
y
)
{\displaystyle \mathrm {H} (X|Y=y)}
і може бути або меншою, або більшою за
H
(
X
)
{\displaystyle \mathrm {H} (X)}
для заданої випадкової варіати [en]
y
{\displaystyle y}
змінної
Y
{\displaystyle Y}
, але
H
(
X
|
Y
)
{\displaystyle \mathrm {H} (X|Y)}
ніколи не може перевищувати
H
(
X
)
{\displaystyle \mathrm {H} (X)}
.
Наведене вище означення є для дискретних випадкових змінних, але в випадку неперервних випадкових змінних воно чинним не є. Неперервну версію дискретної умовної ентропії називають умовною диференціальною (або неперервною) ентропією (англ. conditional differential (continuous) entropy ). Нехай
X
{\displaystyle X}
та
Y
{\displaystyle Y}
є неперервними випадковими змінними з функцією густини спільної ймовірності [en]
f
(
x
,
y
)
{\displaystyle f(x,y)}
. Диференціальну умовну ентропію
h
(
X
|
Y
)
{\displaystyle h(X|Y)}
означують як
h
(
X
|
Y
)
=
−
∫
X
,
Y
f
(
x
,
y
)
log
f
(
x
|
y
)
d
x
d
y
{\displaystyle h(X|Y)=-\int _{{\mathcal {X}},{\mathcal {Y}}}f(x,y)\log f(x|y)\,dxdy}
.[ 1] :249
На противагу до умовної ентропії дискретних випадкових змінних, умовна диференціальна ентропія може бути від'ємною.
Як і в дискретному випадку, для диференціальної ентропії існує ланцюгове правило:
h
(
Y
|
X
)
=
h
(
X
,
Y
)
−
h
(
X
)
{\displaystyle h(Y|X)\,=\,h(X,Y)-h(X)}
[ 1] :253
Зауважте, проте, що це правило може не виконуватися, якщо залучені диференціальні ентропії не існують, або є нескінченними.
Спільну диференціальну ентропію також використано в означенні взаємної інформації між неперервними випадковими змінними:
I
(
X
,
Y
)
=
h
(
X
)
−
h
(
X
|
Y
)
=
h
(
Y
)
−
h
(
Y
|
X
)
{\displaystyle \operatorname {I} (X,Y)=h(X)-h(X|Y)=h(Y)-h(Y|X)}
h
(
X
|
Y
)
≤
h
(
X
)
{\displaystyle h(X|Y)\leq h(X)}
, з рівністю якщо і лише якщо
X
{\displaystyle X}
та
Y
{\displaystyle Y}
є незалежними.[ 1] :253
Умовна диференціальна ентропія дає нижню межу математичного сподівання квадратичної похибки оцінювача . Для будь-якої випадкової змінної
X
{\displaystyle X}
, спостереження
Y
{\displaystyle Y}
та оцінювача
X
^
{\displaystyle {\widehat {X}}}
виконується наступне:[ 1] :255
E
[
(
X
−
X
^
(
Y
)
)
2
]
≥
1
2
π
e
e
2
h
(
X
|
Y
)
{\displaystyle \mathbb {E} \left[{\bigl (}X-{\widehat {X}}{(Y)}{\bigr )}^{2}\right]\geq {\frac {1}{2\pi e}}e^{2h(X|Y)}}
Це стосується принципу невизначеності в квантовій механіці .
У квантовій теорії інформації умовна ентропія узагальнюється до умовної квантової ентропії [en] . Остання, на відміну від свого класичного аналога, може набувати від'ємних значень.